原本這篇要來說說 airflow 的架站,但我今天快趕不及截稿日啦 ~
先把後面要寫的提早拿來說 ~
之前有機會遇到 IT 大神,請他看了一下我目前的開發流程 :
jupyter notebook -> 建構 DAG .py 程式碼 -> 將程式碼上到 airflow server
大神看了這個流程後覺得可以使用 dbt 來當做 ETL 工具使用。
這個工具老實說我還沒有聽過,但國外好像已經有把它拿來實作得沸沸揚揚了,它可以取代的是 ETL 的 T 的部份。
就我目前的理解,簡單來說呢,modern data stack 將所有資料引入 data lake(or data warehouse),後續由 dbt 直接向 data lake 進行 ETL 後直接進行 table or view 的建置,再基於這些中間的 table or view 最後組成提供給 BI 工具或終端使用者的資料來源 ~
雖然我目前也只有學習跟實作 dbt 上的免費資源,還沒有實際用在工作或是從頭試著建置,不過只需要使用 SQL 跟一些 dbt 很像模版功能的語法相對比較親民,也可以將應用層面的技術門檻降低,而且 dbt 也主打一個 single source of truth - 讓大家使用的資料來源統一,這的確在資料應用面上是很大的益處 ~
有興趣的人可以參考這本書 dbt 與 Analytics Engineering 實戰手冊:從零打造現代資料分析架構及專業職涯
dbt 官方學習資源 : https://learn.getdbt.com/catalog